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摘要 


本 文通 过 严格 数学 分 析 找 出 了 逻辑 回归 过 拟 合 的 成 因 : 边界 样本 的 损失 贡献 比重 大 且 随 法 向 量 增 
长 而 加 速 增 大 、 边 界 样本 分 布 散乱 ， 顺 便 理 清 了 正则 项 的 作用 机 理 。 利 用 过 拟 合 机 制 ， 本 文 提出 一 种 反 
拉 方 法 ， 既 能 缓解 过 拟 合 ， 又 能 减少 训练 步 数 ， 在 MNIST 数据 集 上 实现 加 速 38.25 倍 ， 在 CIFAR10 
数据 集 上 实现 加 速 5.61 倍 。 


In this paper, I found the two reasons of overfitting of logistic regression: boundary samples 


occupy a larger and larger share as the length of normal vector becomes longer and longer, boundary 
samples do not fit their probability density function well. With the help of insight in overfitting, I 
propose a acceleration method for logistic regression and got a training speedup of 38.25 on MNIST 
dataset, a training speedup of 5.61 on CIFAR10 dataset. 

关键 字 : 逻辑 回归 ， 过 拟 合 解释 ， 反 拉 加 速 


1 引言 


逻辑 回归 (Logistic Regression) 是 机 器 学 习 的 一 个 基础 分 类 方法 [1]。 它 形式 简单 ， 有 LIBLIN- 
EAR [2] 这 样 的 工具 库 ， 工 程 实现 方便 ， 在 互联 网 推荐 系统 中 有 广泛 的 应 用 。 各 大 公司 有 成 千 上 万 
台 服 务 器 在 一 刻 不 停 地 训练 逻辑 回归 模型 ， 如 果 能 保证 正确 率 的 前 提 下 大 幅 提 高 训练 速度 ， 那 么 将 
能 节省 大 量 运 营 成 本 。 
目前 提高 训练 速度 的 主要 手段 是 样本 预 处 理 和 设计 更 好 的 最 优化 算法 。 一 个 有 效 的 样本 预 处 
理 方 法 是 按 分 量 白化 [3]; 可 用 的 最 优化 算法 有 很 多 ， 常 用 的 是 梯度 下 降 法 的 多 种 变 体 四， 例如 随 
HEE, Momentum 算法 、Nesterov accelerated gradient 算法 、Adagrad 算法 、Adadelta 算法 ， 
等 等 ， 还 有 DFP、BFGS、L-BFGS 等 拟 牛 顿 算法 [6|， 以 及 速度 更 快 的 信赖 域 算 法 [7]， 并 行 化 的 
最 优化 算法 [5] 也 能 提高 训练 速度 。 


2 逻辑 回归 2 


过 拟 合 是 计算 学 习 的 关键 障碍 ， 通 常 的 解释 是 模型 过 于 复杂 [1,8] ， 要 用 相对 简单 的 模型 来 组 
解 过 拟 合 现象 ， 至 于 过 拟 合 的 成 因 ， 可 用 “偏差 -方差 分 解 ”[1,9] 来 解释 ，[10] 还 讨论 了 过 拟 合 与 
噪声 、 多 重 假设 检验 的 关系 。 缓 解 过 拟 合 的 常用 手段 是 添加 正则 化 项 ，[8] 对 比 了 Ly 正则 化 和 L 
正则 化 的 特点 。 

本 文 的 初 囊 是 探究 逻辑 回归 过 拟 合 的 形成 机 制 ， 因 为 模型 已 经 确定 ， 所 以 无 法 再 用 “模型 过 于 
复杂 ”这 样 的 理由 来 解释 。 因 此 跳出 常规 的 概率 视角 ， 用 Taylor 展开 分 析 交 叉 烂 后 发 现 ， 逻 辑 回 
归 过 拟 合 的 原因 有 两 个 : 边界 样本 的 损失 贡献 比重 大 且 随 法 向 量 增长 而 加 速 增 大 、 边 界 样本 分 布 散 
乱 。 虽 然 法 向 量 过 大 只 是 过 拟 合 的 表象 ， 但 是 控制 法 向 量 模 长 却 能 够 切实 缓解 过 拟 合 ， 因 此 各 种 正 
则 化 手段 有 效 。 

利用 对 过 拟 合 机 制 的 洞察 ， 本 文 提 出 一 种 反 拉 方法 : 修改 各 个 样本 在 交叉 业 损 失 函 数 中 的 贡献 
比重 ， 提 高 被 分 错 样本 的 损失 贡献 ， 能 够 减少 提高 逻辑 回归 的 训练 次 数 ， 降 低 被 分 错 样 本 的 损失 贡 
献 ， 能 够 减缓 过 拟 合 。 为 了 保证 交叉 灼 数值 稳定 性 ， 顺 便 提 出 一 种 近似 计算 方法 。 在 手写 数字 数 
据 集 MNIST [12] 上 ， 反 拉 方 法 将 训练 速度 提高 38.25 倍 ; 在 CIFRA10 数据 集 上 ， 反 拉 方 法 将 训 
练 速度 提高 5.61 倍 。 

本 文 后 续 内 容 这 样 组 织 。 第 2 节 给 出 逻辑 回归 公式 ， 为 后 文公 式 推导 做 准备 ; 第 3 节 给 合 实例 
和 公式 推导 给 出 过 拟 合 的 2 个 原因 ; 第 4 节 给 出 反 拉 方法 ; 第 5 节 是 数值 实验 ， 验 证 反 拉 方法 的 
加 速 性 能 和 缓解 过 拟 合 的 效果 。 


2 逻辑 回归 
给 定数 据 集 刀 = {(x1, y1), (X2, Y2); -< (Xm Ym) h 其 中 为 正 整 数 ， 列 向 量 x, = (£i; tiz... 3 Tia) 
标量 yi € {0,1}. Sy =ONM x; 是 负 样 本 ， 当 ww = 1 时 称 xi 是 正 样 本 。 二 分 类 问题 是 要 从 数 
据 集 D 中 学 习 到 一 个 模型 ， 然 后 用 这 个 模型 预测 任意 的 样本 xj 是 正 样本 还 是 负 样 本 。 
逻辑 回归 的 任务 是 从 给 定数 据 集 D 中 学 习 到 分 隔 面 的 斜 截 式 方程 


wix+b=0, |w| 40 (1) 


确定 其 中 的 法 向 量 w AEE 5 值 。 这 里 的 w 是 列 向 量 ， 记 为 w = (wi; W2;...; wa), b 是 标量 。 任 
意 平面 都 可 以 用 做 分 隔 面 ， 区 别 只 是 推测 效果 可 能 不 同 。 

为 了 寻找 分 隔 面 (1)， 对 Yx; € D, $ z= wx; +b, 按照 [11] 中 定义 ， 为 点 xi 到 分 隔 面 
(1) 的 加 权 距 离 。 定 义 单个 样本 x, 上 的 损失 函数 


io 二 ie —o(z%)), WR y; =0, 


2 
—In(o(z%)), 如 果 yi = 1, 


这 里 的 o(z) 为 Sigmoid 函数 o(z) = m= 。 将 样本 集 D 上 的 损失 函数 定义 为 


Y lzi), 


i=l 


L(w, b) = 


3|- 


3 ”过 拟 合 实例 与 成 因 3 


overfitting of LR on linear separable dataset LR accuracy 
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图 1: 线性 可 分 样本 集 上 的 过 拟 合 图 2: 线性 可 分 样本 集 上 的 正确 率 
求解 它 的 最 小 值 
{W,b} = arg min L(w,b), (3) 
w,b 


就 得 到 了 最 优 参数 w Ab, RA (1) 即 得 最 优 分 隔 面 WT x +b = 0. 
对 任意 样本 xj ， 用 最 优 分 隔 面 来 推测 它 归 属 的 类 别 。 令 


0, 如 果 w! x; + b < 
Yj; = x 
"|, MR Tx 45> 


如 果 y; = 0， 那 么 推测 x 是 负 样 本 ; 如 果 y = 1， 那 么 推测 x; 是 正 样本 。 


3 ”过 拟 合 实例 与 成 因 


在 逻辑 回归 问题 中 ， 正 确 率 通常 会 随 着 训练 步 数 的 增加 而 升 高 。 有 时 在 训练 若干 步 以 后 ， 随 着 
训练 集 样本 上 的 正确 率 逐 渐 提 高 ， 测 试 集 上 的 正确 率 不 再 提高 甚至 下 降 ， 这 种 现象 称 为 过 拟 合 。 

为 直观 说 明 过 拟 合 的 成 因 ， 先 给 出 2 个 没有 实际 意义 的 例子 ， 它 们 分 别 对 应 线性 可 分 的 样本 集 
和 线性 不 可 分 的 样本 集 。 


3.1 线性 可 分 样本 集 上 的 过 拟 合 


图 1 中 ， 蓝 色 圆 圈 是 训练 集中 的 负 样 本 ， 红 色 圆 圈 是 训练 集中 的 正 样本 。 训 练 集 中 的 36 个 负 
样本 均匀 分 布 在 区 域 [-3, 1] x [- 1,1) 中 ， 一 个 偏离 主体 的 训练 集 负 样 本 是 点 (0.5,-1)。 训 练 集中 
的 36 个 正 样本 均匀 分 布 在 区 域 [1,3] x [-1, 1] 中 ， 一 个 偏离 主体 的 训练 集 正 样本 是 点 (-0.5,1)。 根 
据 [11] 中 的 定义 ， 可 以 验证 这 个 训练 集 线 性 可 分 。20 x 20 个 蓝 色 小 圆 点 是 测试 集中 的 负 样 本 ， 它 
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图 3: 线性 不 可 分 样本 集 上 的 过 拟 合 图 4: 线性 不 可 分 样本 集 上 的 正确 率 
们 均匀 分 布 在 区 间 [—3, —0.2] x [一 1.5,1.5] P; 20 x 20 个 红 点 小 圆 点 是 测试 集中 的 正 样本 ， 它 们 均 


匀 分 布 在 区 间 [0.2, 3] x [一 1.5,1.5] 中 。 
使 用 逻辑 回归 对 这 个 样本 集 分 类 ， 用 最 速 下 降 法 返 代 求 解 式 (3)， 和 从 代步 长 指定 为 0.1。 图 1 中 
的 黑色 直线 是 初始 分 隔 线 (分 隔 面 在 二 维 空 间 退 化 为 分 隔 线 )， 洋 红色 虚线 是 迭代 1000 步 后 的 分 隔 
线 ， 洋 红色 实 直线 是 迭代 2000 步 后 的 分 隔 线 。 黑 色 直 线 是 按照 [11] 中 的 方法 选取 的 : 


(Ho + u)” (x Ho + a 
bo + pil 2 
这 里 的 jo 是 训练 集中 所 有 负 样 本 的 均值 ，Aai 是 训练 集中 所 有 正 样本 的 均值 。 
图 2 是 迭代 过 程 中 的 正确 率 走 势 ， 在 第 1635 PARZE, MAREKET 1， 但 测试 
集 上 的 正确 率 从 第 180 步 开 始 持续 下 降 ， 发 生 过 拟 合 。 


=0, (5) 


3.2 ”线性 不 可 分 样本 集 上 的 过 拟 合 


图 3 中 ， 蓝 色 圆 圈 是 训练 集中 的 负 样本 ， 红 色 圆 圈 是 训练 集中 的 正 样本 。 训 练 集 中 的 36 个 负 
样本 均匀 分 布 在 区 域 [-3, 一 1] x [-1, 1] 中 ， 一 个 偏离 主体 的 训练 集 负 样本 是 点 (0.4,-0.4)。 训 练 集 
中 的 36 个 正 样本 均匀 分 布 在 区 域 [1 3] x [1,1] 中 ， 一 个 偏离 主体 的 训练 集 正 样本 是 点 (-0.8,0.4)。 
根据 [11] 中 的 定义 ， 这 个 训练 集 线 性 不 可 分 。20 x 20 个 蓝 色 小 圆 点 是 测试 集中 的 负 样 本 ， 它 们 均 
匀 分 布 在 区 间 [—3, —0.2] x [-1.5,1.5] 中 ; 20 x 20 个 红 点 小 圆 点 是 测试 集中 的 正 样 本 ， 它 们 均匀 分 
布 在 区 间 [0.2, 3] x [-1.5, 1.5] Fo 
例 用 尿 辑 回归 对 这 个 样本 集 分 类 ， 用 最 速 下 降 法 迭代 求解 式 (3)， 和 迭代 步 长 指定 为 0.1。 图 3 中 
的 黑色 直线 是 初始 分 隔 线 ， 洋 红色 虚线 是 迭代 5000 步 后 的 分 隔 线 ， 洋 红色 实 直线 是 迭代 10000 步 
后 的 分 隔 线 。 黑 色 直 线 的 方程 是 (5)。 图 4 是 迭代 过 程 中 的 正确 率 走势 ， 训 练 集 上 的 正确 率 保 持平 
稳 ， 但 测试 集 上 的 正确 率 从 463 步 开 始 持续 下 降 ， 发 生 过 拟 合 。 
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Zi 


-4 -2 2 4 


图 5: 单个 样本 上 的 损失 函数 (z) CREA, BA AHA, 


PEA 1 和 图 3 发 现 ， 很 少 的 边界 样本 的 大 致 决定 了 分 隔 面 的 走向 ， 边 界 样本 的 影响 力 比 
远离 边界 的 样本 的 影响 力 大 很 多 ， 这 也 许 就 是 探寻 过 拟 合 线索 。 


3.3 ”过 拟 合成 因 


人 了 眼 直观 判断 ， 图 1 和 图 3 中 各 有 2 个 训练 样本 远离 主体 ， 应 该 按 噪音 处 理 ， 人 多 去 ;即使 不 售 
去 ， 它 们 对 确定 分 隔 线 的 影响 也 不 应 太 大 。 实 际 上 ， 如 果 售 去 噪音 样本 ， 那 么 训练 集 得 到 的 理想 分 
隔 线 应 该 为 zi = 0。 黑 色 直 线 方程 为 0.9999zi + 0.01402. = 0， 与 理想 分 割 线 很 接近 。 

逻辑 回归 得 到 的 分 隔 线 是 怎么 偏离 样本 主体 的 呢 ? 为 此 ， 和 仔细 观察 损失 函数 1(z;) 的 走势 。 样 
本 xi 与 za 一 一 对 应 ， 从 图 5 中 知道 ， 对 正 样本 x;， 如 果 zi > 0， 那 么 xi 被 正确 分 类 ， 此 时 它 的 
损失 函数 值 !(o(zi)) < —In(o(0)); WR z < 0， 那 么 x; 被 错误 地 分 为 负 类 ， 此 时 它 的 损失 函数 值 
l(o(z)) > 一 In(o(0))。 当 x; 为 负 样 本 时 ， 和 情况 类 似 。 

从 图 5 中 可 以 直观 地 看 到 ， 相 对 于 被 正确 分 类 的 样本 ， 被 错误 分 类 的 样本 对 损失 函数 的 贡献 更 
大 。 


为 了 定量 分 析 样 本 对 损失 函数 的 贡献 ， 需 要 月 


义 两 个 函数 


zZ 


H Taylor 公式 寻找 1(z;) 的 简单 近似 函数 。 为 此 定 


=e 如 果 z < 一 Co <0, 
folz) = 4 n(1 — o(2)), WE- Co < z < Co, (6) 
-z — e77, 如 果 z > Co > 0, 
z— e, 如果 z < -Co <0, 
户 (z) = 4 n(o(2)), WÈ -— Co < z < Co, (7) 
=E 7, 如 果 z > Co > 0, 


这 里 的 Co 是 任意 指定 的 正 实 数 。 
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3 过 拟 合 实例 与 成 因 6 


定理 1. 函数 folz) 是 In(1 一 o(z)) Kith, Bk fi(z) 是 In(o(z)) 的 近似 。 


证 . 先 证 明 folz) 是 In(1 — o(z)) 的 近似 。 当 > < -Co IT, e7 < exp( 一 C0) < 1， 从 而 有 


1 á 1 
n(1-0o(2)) = In(1- >=) =a eae) = In(=—,) = n(1) — In + e°) 
= =e + O(e”*). 
“4 z > Co WN, e77 <exp(—Co) < 1, AMA 
1 Cx 
= = 一 2 —z) 
In(l—o(z)) = (1 ia = Bire In(e~*) — ln(1 +e 


因此 ， 对 任意 给 定 的 实数 z, max(|fo(z)—In(1—o(z))|) = O(exp(—2Co)), KZ fo(z) 是 In(1 一 o(z)) 


的 近似 。 


再 证 明 filz) 是 mn(c(z)) 的 近似 。 当 > < 一 Co 时 ，ez < exp(—Co) < 1， 从 而 有 


当 z> Co 时 


ne) = In( =) = Int ) = In(e*) — n(1 +e”) 


= z—e*+O(e’). 


e 
1 + e? 


, e7 <exp(-Co) < 1， 从 而 有 


In(o(z)) = In( —) = In(1) —In(1 + e7) = -~e +O(e *). 


因此 ， 对 任意 给 定 的 实数 z, max(|fi(z) — In(o(z))|) = O(exp(—2Co)), KZ fi(z) 是 In(o(z)) 的 


近似 。 


当 Co = 


[证 毕 ] 


4.3 时 ，exp( 一 C0) = 0.0136, exp(—2Co) = 0.00018411。 实 际 上 ， 容 易 验 证 ， 此 时 有 


0 < fo(z) — In(1 — o(z)) < 0.0001, 0 < fi(z)— lIn(o(z)) < 0.0001, HERF. 


根据 定型 


为 简化 说 明 ， 本 节 后 续 叙述 只 考虑 正 样本 的 损失 函数 曲线 ， 负 样本 的 情形 类 似 。 式 (1) 是 
隔 面 的 斜 截 式 方程 ， 由 解析 几何 知道 ， 它 有 一 个 等 价 的 点 法 式 方程 wr(x; ~ c) = 0， 这 里 的 c 
是 d 维 列 向 量 。 假 设 样本 x 和 xs 均 为 正 样本 ， 给 定 法 向 量 w AS co A z = w(x -— ce) 


1， 单 个 样本 上 的 损失 函数 (2) 可 以 近似 地 表示 为 


—fo(zi), WR yi = 0, 
I(z;) y 
—filzi), WR y =1. 


22> w! (x2 = chs 观察 图 5 中 红线 知道 ， 如 果 Z1 < Za» 那么 I(z;) > I(z2); Bp 


推论 1. 样本 的 加 权 距 离 越 小 ， 损 失 贡 献 越 大 。 


3 过 拟 合 实例 与 成 因 7 


给 定 Co > 0。 当 之 1 < 22 < 一 C0 时 ， X1 和 Xə 均 位 于 分 隔 面 wT (x; = c) =0 的 背面 ， 即 都 被 
分 错 了 。 假设 W = SW; 其 中 实数 s>l, id Zi = wł (xı = c) 和 Z2 = w? (xs = c), 那么 有 


w w 
~x ~x 


2) (sz) —filsza)  sz2— e2 zo Iz)’ 


z) U(sz)  —filsz1) _ szı 一 e°” aie I(z1) (8) 


由 式 (8) 得 
推论 2. 被 分 错 样本 之 间 的 损失 贡献 比例 不 随 法 向 量 的 变化 而 变化 。 


给 定 Co > 0。 当 Co <a < 20 时 ，xi 和 xs 均 位 于 分 隔 面 wz (x; 一 c) = 0 的 正面 ， 即 都 被 分 
对 了 。 假 设 w= sw， 其 中 实数 s>>1, W3 =w] (x — c) z2 =w? (x:- c), MAA 


W a STA gO xp(s(22 — z1)) = (exp(z2 — 21))° 
z = SN p(s(22 — 21)) = (exp(z2 — 21))*, (9) 


e SZ2 


由 式 (9) 得 


推论 3. 被 分 对 样本 之 间 的 损失 贡献 比例 会 随 着 法 向 量 的 增长 而 指数 级 增长 。 
给 定 Co > 0。 当 z2 > Co H z2 = -2 时 ，xi 和 xs 分 别 位 于 分 隔 面 w(x; 一 c) = 0 的 背面 和 
ee ene eae ae © 


Z1) _ W(—sza) _ —fil—sze) _ $22 + exp(—sz2) _ 
Z2) j 1(sz2) — fi(sz2) = exp(—sz2) SP Bees), (10) 


由 式 (10) 得 


推论 4. 被 分 错 样本 与 被 分 对 样本 之 间 的 损失 贡献 比例 会 随 着 法 向 量 的 增长 而 指数 级 增长 。 


将 分 隔 面 附近 样本 称 为 边界 样本 。 从 推论 1 推论 4 可 知 ， 对 损失 函数 的 贡献 比例 ， 由 大 到 小 
分 顺序 是 : 被 分 错 的 样本 、 被 分 对 的 边界 样本 、 被 分 对 的 其 它 样本 ， 它 们 之 间 的 比例 关系 随 着 法 向 
量 的 增长 而 迅速 增 大 。 适 用 逻辑 回归 的 数据 集 ， 被 最 优 分 隔 面 分 错 的 样本 占 比 不 大 ， 这 样 被 分 错 的 
本 通常 会 在 分 隔 面 附近 。 考 虑 到 ， 在 线性 可 分 数据 集 上 ， 法 向 量 模 长 w 趋向 无 穷 大 [11]， 分 隔 
面 几乎 完全 由 边界 样本 决定 。 在 线性 不 可 分 数据 集 上 ， 法 向 量 模 长 |w| 有 界 [11]， 但 最 优 分隔 面 
的 法 向 量 模 长 可 能 仍然 很 大 ， 过 拟 合 仍然 严重 。 因 此 得 出 过 拟 合 原 因 之 一 : 边界 样本 的 损失 贡献 比 
重大 且 随 权重 增长 而 加 速 增 大 。 
自然 界 很 多 事件 服从 正 态 分 布 ， 例 如 图 6， 中 心 处 样本 密度 大 ， 能 够 很 好 在 逼近 其 概率 密度 函 
数 ， 在 远离 中 心 的 边缘 人 处， 概率 密 度 函 数 的 值 较 小 ， 样 本 稀疏 ， 不 能 很 好 地 反映 其 概率 密度 函数 。 
考虑 到 训练 集 边界 样本 基本 决定 分 阳平 面 ， 而 测试 集 样本 的 实际 分 布 与 训练 集会 有 一 些 差 异 ， 所 以 
得 到 的 分 隔 平面 不 能 很 好 地 分 隔 训练 集 。 因 此 得 到 过 拟 合 的 原因 之 二 : 边界 样本 分 布 散 乱 。 

第 3 节 的 2 个 过 拟 合 例子 都 是 根据 这 2 个 原因 设计 出 来 的 。 


ae | 由 


z 
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图 6: 一 个 服从 正 态 分 布 的 样本 集 


3.4 ”正则 化 的 作用 机 理 


缓解 过 拟 合 的 常用 手段 是 添加 正则 化 项 ， 各 种 各 样 的 正则 化 方法 的 目标 都 是 一 致 的 ， 控制 法 向 
EES, Mi w 过 大 。 由 过 拟 合 的 成 国 可 知 ， 虽 然 法 向 量 过 大 只 是 过 拟 合 的 表象， 不 是 根本 原 
因 ， 但 限制 它 的 模 长 确实 有 效 缓解 了 过 拟 合 ， 这 是 因为 它 限制 了 边缘 样本 的 损失 贡献 比重 。 正 则 化 
a a 

从 过 拟 合成 因 还 可 以 知道 缓解 过 拟 合 的 男 一 个 思路 : 修整 边界 样本 使 之 准确 反映 概率 密度 函 
数 。 教 科 书 [1] 中 已 经 写 明 增加 样本 数量 re 
增加 样本 总 量 ， 边 界 样本 数量 也 同比 例 增加 ， 从 而 边界 样本 更 好 地 反映 其 概率 密度 函数 ， 从 而 缓解 
过 拟 合 。 


= 
fe = 
= 

` 
($) 
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图 5 画 出 了 单个 正 样本 (红色 ) 和 单个 负 样本 《〈 蓝 色 ) 的 损失 曲线 。 直 观 地 理解 ， 如 果 样 本 集 是 
线性 可 分 的 ， 那 么 正 样 本 对 应 的 2; 越 大 ， 该 样本 上 的 损失 函数 值 越 小 ， 负 样本 对 应 的 z 越 小 ， 该 
样本 上 的 损失 函数 值 越 小 。 从 而 ， 在 式 (3) 的 计算 过 程 中 ， 负 样本 向 2, 负 无 穷 方向 移动 ， 正 样本 
向 2, 正 无 穷 方向 移动 ， 达 到 了 分 类 的 目的 。 从 过 拟 合成 因 的 分 析 过 程 可 知 ， 对 给 定 的 w Alb, 被 
ee E ear, 

为 了 更 快速 地 找到 最 优 分 隔 面 ， 索 性 进一步 提高 被 分 错 样 本 的 损失 页 献 ， 让 错误 更 猛烈 一 些 。 
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4.1 反 拉 方法 


定义 半 正 定 (POsitive Semidefinite) 函数 


f 如 果 z <0, 
pos(z) = 


z, WẸ z>0, 


和 半 负 定 (NEgtive Semidefinite) 函数 


加 权 距 离 的 计算 方法 保持 不 变 ， 即 


对 加 权 距 离 进行 反 拉 变 换 ， 得 到 


zi + Apos(z:), 如果 ww = 0， 
z,+Anes(z;), WR yi =1, 


这 里 的 和 称 为 反 拉 系 数 ， 取 值 范围 是 (一 1, 十 oo)。 将 损失 函数 (2) 蔡 换 为 


jed Vs Bee 
i —ln(o(Z;)), 如 果 yi = 1, 


从 而 样本 集 D 上 的 损失 函数 为 m 
1 
H(w,b) = a dhe). 


求解 它 的 最 小 值 
{w, 6} = arg min H(w, b), (11) 
wb 


就 得 到 了 最 优 参数 w 和 b. 

由 式 (4.1)(4.1) 知 ， 在 入 =0 时, h(x) = 1(2)。 图 7 中 对 比 了 逻辑 回归 损失 函数 !(z) 和 反 拉 后 
的 损失 函数 h(z)， 可 以 看 到 ， 当 和 > 0 时 ， 对 被 分 错 的 样本 ， 反 拉 后 的 损失 更 大 了 ; 当 -1< 入 <0 
时 ， 对 被 分 错 的 样本 ， 反 拉 后 的 损失 变 小 了 一 些 ， 可 以 缓解 过 拟 合 。 实 际 应 用 时 ， 反 拉 系 数 和 的 选 
取 需 要 多 次 试探 ， 以 便 找到 最 优 值 。 

损失 函数 h(z) 的 导数 也 容易 求 得 


Oh(zi) 加 o(Z;)[1 + A pos! (zi)]xi, 如 果 yi = 0, 
Ow [o(Z;) — 1[1 + Anes’(z))x;, WEE y: = 1, 


4 反 拉 加 速 10 


-4 -2 2 4 


7: 反 拉 后 的 损失 函数 ， 蓝 线 对 应 负 样本 ， 红 线 对 应 正 样 本 。 入 = 0 
时 h(z;) 就 退化 为 I(z;) 0 


Oh(z;) 2 o(Z,)[1 + A pos’(z;)], 如 果 yi = 0, 
(= ðb | [o(Z,) — Af + Anes (z), WE y =1, 


这 里 的 半 正 定 函数 的 导数 为 


td 1, mR z>0 

2 半 负 定 函数 的 导数 为 

"u 1, mR z <0, 
nes (z) = 


反 拉 加 速 只 用 于 训练 ， 不 用 于 推测 。 一 旦 得 到 最 优 分 隔 面 参数 Ww 和 b, AMEH (4) 来 推测 
= 样本 的 类 别 。 


4.2 损失 函数 的 数值 稳定 性 
使 用 反 拉 方法 后 ， 对 给 定 的 正 样本 x;、 法 向 量 w MERE b WR z < 0， 那 么 入 越 大 olz) 
越 接近 于 0， 损 失 函 数 In(o(Z;)) 的 数值 计算 越 不 稳定 ， 很 容易 超出 计算 机 的 表示 范围 ， 得 到 结果 
NaN(Not A Number)。 负 样本 的 情形 类 似 。 

为 了 保持 数值 稳定 ， 同 时 减少 一 点 计算 量 ， 用 式 (6) 近似 计算 式 (4.1) 中 的 In(1 — o(Z;)), A 
式 (7) 近似 计算 式 (4.1) 中 的 In(o(Z;,)). sh (6)(4.1) 中 的 常数 Co 可 以 根据 精度 要 求 取 值 ， 例 如 
Co = 4.3 时 ， 近 似 值 与 精确 值 之 间 的 误差 小 于 0.0001. 


5 数值 实验 


5 数值 实验 


反 拉 方法 的 设计 目标 是 减少 迭代 次 数 ， 降 低 训练 成 本 ， 额 外 收获 是 能 够 缓解 过 拟 合 。 
反 拉 方法 的 本 质 是 调整 了 各 个 样本 的 损失 比重 ， 不 涉及 正则 项 和 最 优化 算法 ， 因 此 只 需要 在 最 
优化 算法 、 正 则 项 相同 的 情况 下 对 比 逻 辑 回归 在 使 用 反 拉 方法 前 后 的 性 能 。 


MNIST 数据 集 
试 反 拉 方 法 的 性 能 。 


和 CIFAR10 数据 集 分 别 包含 了 10 类 样本 ， 恰 好 可 以 任 取 2 类 样本 组 合 起 来 测 


5.1 加速 MNIST 训练 


手写 数字 数据 集 MNIST [12] 包含 0-9 这 个 10 个 数字 的 图 片 , 图 片 大 小 为 28 x 28， 将 2 维 单 


依次 为 0-1、0-2、 


色 图 像 拉平 制作 为 1 维 


。 取 任意 两 个 数字 的 图 片 分 ) 别 作为 负 样 本 、 正 样本 进行 训练 ， 组 合 顺序 


次 ， 然 后 训练 下 一 利 


20000, LR 最 大 正太 


、0-9、1-2、1-3、...、1-9、...、7-8、8-9, 一 共 45 种 组 合 。 每 种 组 合 训 练 10 
,组 合 ， 共计 训练 450 次 。 训 练 使 用 负 梯 度 下 降 法 ， 步 长 指定 为 0.01， 无 正则 
化 项 ，w 的 初 值 从 均匀 分 布 U(—1//784, 1/784) 中 随机 选取 ,5 的 初 值 为 0。 最 大 友 代 步 数 设 为 
角 率 对 应 的 迭代 步 数 ( 称 为 LR 最 优选 代步 数 )，FLR ER BIA LR 最 大 正确 
率 花费 的 迭代 步 数 称 为 FLR 最 优 迭 代步 数 ， 如 图 8 如 示 ， 用 LR 的 最 优 迭 代步 数 除 以 FLR 的 最 优 
ERG BOGS 加 速 倍 数 ， 如 图 9 所 示 。 加 速 倍数 为 1 意味 着 没有 加 速 ， 加 速 倍数 大 于 1 意味 有 


加 速 。 从 图 9 看 出 ， 加 速 倍数 在 13.10°87.22 之 间 ， 平 均值 为 38.25。 反 拉 方法 在 训练 集 和 测试 集 上 
正确 分 别 为 99.23% 和 98.82%， 相 对 于 未 反 拉 时 正确 率 的 提升 见 图 10， 训 练 集 上 平均 提高 0.51%, 


测试 集 上 平均 提高 0.14%. 


5.2 ”加速 CIFAR10 训练 


手写 数字 数据 集 
拉平 制作 为 1 维 向 量 。 


1-3、...、1-10、2-3、2-4、 


训练 下 一 种 组 合 ， 


CIFAR10 [13] 包含 10 类 彩色 图 片 ， 图 片 大 小 为 32 x 32， 将 2 维 彩 色 图 像 
取 任 意 两 类 图 片 分 别 作 为 负 样 本 、 正 样本 进行 训练 ， 组 合 顺 序 依次 为 1-2、 


、2-10、...、8-9、9-10， 一 共 45 种 组 合 。 每 种 组 合 训练 10 次 ， 然 后 


LiF UIA 450 次 。 训 练 使 用 负 梯 度 下 降 法 ， 步 长 指定 为 0.0001， 无 正则 化 项 ，w 


的 初 值 从 均匀 分 布 U(—-1/V3072, 1/3072) 中 随机 选取 ，? 的 初 值 为 0。 最 大 友 代 步 数 设 为 20000, 
最 优 和 迭代 步 数 如 图 11 如 示 ， 加 速 倍数 如 图 12 所 示 。 加 速 倍 数 在 1.80°9.06 之 间 ， 平 均值 为 5.61。 反 


拉 方 法 在 训练 集 和 测试 外 


上 正确 率 均 值 分 别 为 81.69% 和 81.00%， 相 对 于 未 反 拉 时 正确 率 的 提升 见 


幅 震 落 的 组 合 。 


5.3 ”控制 过 拟 合 


图 10， 训 练 集 上 平均 提高 


在 3.1 节 的 例子 上 应 
BE b = 0, 初始 分 隔 线 如 


高 2.52%， 测 试 集 上 平均 提高 2.06%。 图 117 图 13 中 未 显示 正确 率 出 现 大 


IRATE, MA = -0.9， 法 向 量 初始 值 为 w = (1/V2; 一 1/V2)， 截 
图 14 中 黑 线 所 示 。 用 负 梯 度 下 降 法 和 迭代 求解 式 (11), HERG KBE 
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5 数值 实验 
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number of iterations 
3 
% 


fo) 
w 


10? 


number of iterations for Max train accuracy,\ = 20 
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<- FLR 
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index of training 


8: Æ MNIST L, LR 最 大 正确 率 对 应 的 
训练 次 数 ， 横 轴 是 各 个 组 合 的 编号 。LR 表 
示 未 用 反 拉 加 速 ，FLR 代表 使 用 了 反 拉 加 


速 。 


Difference o 


450 


12 


speedup on MNIST, A = 20 
T T T T 


150 200 250 


index of training 


450 


9: 在 MNIST 上 ， 反 拉 方 法 获得 的 加 速 倍 


f accuracy， 入 = 20 
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10: 在 MNIST 上 ， 反 拉 方 法 对 正确 率 的 影响 。 
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11: 在 CIFAR10 £, LR 最 大 正确 率 对 应 
的 训练 次 数 ， 模 轴 是 各 个 组 合 的 编号 。 


数值 实验 


number of iterations 


2 
D 
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number of iteratio! 


ns for Max train accuracy, 入 = 2 


speedup on CIFAR10, 入 = 2 


13 


有 


LR 
FLRJ 
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速 倍数 。 


Al 12: 在 


50 100 150 200 250 300 350 
index of training 
CIFAR10 上 ， 反 拉 方 法 获得 的 加 


Difference of accuracy on CIFAR10, 入 = 2 
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13: 在 CIFAR10 上 ， 反 拉 方 法 对 正确 率 的 影响 。 
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5 数值 实验 


FLR on linear separable datasets 


train-negtive 
train-positive 
| * test-negtive 
* test-positive 


w 
oo 


图 14: 线性 可 分 训练 集 上 ， 入 = -0.9 时 反 拉 
方法 的 训练 效果 。 


图 15: 在 线性 可 能 分 训练 集 上 ， 最 优 法 向 量 
wh 入 的 变化 情况 ， 右 上 角 的 十 号 代表 13 


个 相互 接近 的 点 。 


为 0.1， 前 后 两 步 迭 代 的 损失 函数 值 小 于 = 10-5 时 停止 迄 代 。 洋 红色 虚线 是 迭代 1281 步 
后 的 分 隔 线 ， 洋 红色 实 直线 是 迭代 2561 步 后 停止 时 的 最 优 分 隔 线 。 最 优 分 隔 线 的 斜 截 式 方程 为 
4.10662 +0.071822+1.5237x 1071 二 0， 调整 系数 后 的 等 价 方程 为 zı +0.017522 +3.7105 x10718 = 
0， 与 人 眼 观 察 的 理想 分 隔 线 zi = 0 很 接近 。 此 时 ， 反 拉 方 法 有 效 缓解 了 过 拟 合 。 

在 3.1 节 的 例子 上 应 用 反 拉 方法 ， 入 在 区 间 [-1,1 上 均匀 取 21 个 值 ， 达 步 长 指定 为 0.1， 前 后 
两 步 迭 代 的 损失 函数 值 小 于 e= 10-6 MEER. KAER 21 个 最 优 法 向 量 W 绘制 出 来 ， 得 到 
图 15。 黑 色 带 箭头 直线 是 A= -1 时 得 到 廊 ， 洋 红色 带 箭头 直线 是 入 = 1 时 得 到 多， 折线 上 的 十 
号 对 应 A € (一 1,1) 时 得 到 的 廊 。 注 意 ， 这 个 线性 不 可 分 样本 集 的 理想 分 隔 线 是 z1 = 0， 它 的 法 向 
© w = (1;0)。 从 图 15 知 ， 入 = 一 0.9 时 的 法 向 量 方向 与 理想 法 向 量 最 接近 ， 随 着 和 的 增 大 ， 最 优 
法 向 量 与 理想 法 向 量 的 夹 角 越 来 越 大 ， 过 拟 合 起 来 越 严重 。 这 个 实验 证 明 ， 反 拉 系 数 入 能 够 控制 线 
性 可 分 数据 集 上 的 过 拟 合 。 


puns 


一 在 3.2 节 的 例子 上 应 
距 b= 0， 初 始 分 隔 线 如 图 16 黑 线 所 示 。 用 负 梯 度 下 降 法 迭代 求解 式 (11)， 
0.1， 前 后 两 步 迭 代 的 损失 函数 值 小 于 e = 1078 时 停止 和 迭代。 洋红 
分 隔 线 ， 洋 红色 实 直线 是 迭代 2116 步 后 停止 时 的 最 优 分 隔 线 。 最 优 分 阳线 的 斜 截 式 方程 为 


IRATE, WA = -0.8， 法 向 量 初始 值 为 w = (1/V2; 一 1/V2)， 截 


迭代 步 长 指定 为 
E Me ZR EIEN 1057 步 后 的 


3.83567z1 — 0.014022 4 


- 0.0208 = 0， 调 整 系 数 后 的 等 价 方程 


为 x, 一 0.003722 + 0.0054 = 0， 与 人 眼 


观察 的 到 


E 想 分 阳线 zi = 0 很 接近 。 此 时 ， 反 拉 方 法 有 效 缓解 了 过 拟 合 。 


在 3.2 节 的 例子 上 应 用 反 拉 方法 ， 和 在 区 间 [-1,1) 上 均匀 取 21 个 值 ， 代 步 长 指定 为 0.1， 前 后 
两 步 迭 代 的 损失 函数 值 小 于 e = 107° I EIEN. KAER 21 个 最 优 法 向 量 W 绘制 出 来 ， 得 到 
图 17。 黑 色 带 箭头 直线 是 入 = -1 时 得 到 人 廊 ， 洋 红色 带 箭 头 直 线 是 入 = 1 时 得 到 w, RERI 十 
号 对 应 入 e (-1,1) 时 得 到 的 人 文 。 注 意 ， 这 个 线性 不 可 分 样本 集 的 理想 分 隔 线 是 zi = 0， 它 的 法 向 
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FLR on linear unseparable datasets 


3 | O train-negtive 

I O train-positive 

l * test-negtive 
2 t * test-positive 1.57 
= z sx 1 

<0 4 : = 
: : 0.5 F 
a oe oe a eee id 
3 


图 16: 线性 不 可 分 训练 集 上 ， 和 = 一 0.8 时 反 图 17: 在 线性 不 可 能 分 训练 集 上 ， 最 优 法 向 
拉 方 法 的 训练 效果 。 量 食 随 入 的 变化 情况 。 


量 w = (1;0)。 从 图 17， 和 == 一 0.8 时 的 法 向 量 方 向 与 理想 法 向 量 最 接近 ， 随 着 和 的 增 大 ， 最 优 法 
向 量 与 理想 法 向 量 的 夹 角 越 来 越 大 ， 过 拟 合 起 来 越 严 重 。 这 个 实验 证 明 ， 反 拉 系 数 和 能 够 控制 线性 
不 可 分 数据 集 上 的 过 拟 合 。 


6 总 结 与 展望 


本 文 用 严格 数学 分 析 来 解释 逻辑 回归 过 拟 合 现象 ， 进 而 得 到 了 加 速 训练 过 程 的 反 拉 方法 和 保证 
交 义 炉 数值 稳定 的 近似 方法 。 由 过 拟 合 原 因 的 推导 过 程 知 道 ， 有 反 拉 加 速 会 导致 更 加 严重 的 过 拟 合 ， 
必须 采取 应 对 措施 。 可 以 添加 常规 的 正则 项 ， 也 可 以 将 反 拉 系 数 逐 渐 减 至 0 以 下 。 根 据 数值 实验 经 
验 ， 反 拉 系 数 入 过 大 时 ， 正 确 率 会 降低 ， 正 确 率 曲 线 震 荡 。 在 实际 应 用 中 ， 应 首先 保证 正确 率 曲线 
平滑 ， 再 追求 加 速 性 能 。 
反 拉 方法 的 加 速效 果 看 起 来 与 样本 集 有 一 定 的 关联 ， 其 间 的 作用 机 理 需 要 进一步 研究 。 
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